Telegram Group & Telegram Channel
✔️ ttt-rl (Tic-Tac-Toe Reinforcement Learning)

🎯 Суть проекта
Это эксперимент по обучению с подкреплением (Reinforcement Learning, RL), где агент учится играть в крестики-нолики (Tic-Tac-Toe) без использования нейронных сетей. Основная цель — продемонстрировать, как классические методы RL справляются с простыми играми.

🔥 Чем интересен?
Минимализм и простота
Весь код написан на чистом C (~400 строк).
Нет зависимостей — только стандартная библиотека.
Идеален для изучения основ RL «с нуля».

Классический подход к RL
Используется метод Temporal Difference (TD) Learnin
Агент обучается через игру (self-play) и обновляет стратегию на основе наград.

Образовательная ценность
Понятная визуализация процесса обучения (таблицы Q-значений).
Пример того, как простая задача помогает понять фундамент RL.

Эффективность
После обучения агент играет почти оптимально, избегая поражений.
Код легко модифицировать для экспериментов (например, изменить размер доски).

📊 Как это работает?
Q-таблица хранит «ценность» каждого действия в конкретном состоянии.

Агент выбирает ход на основе текущих Q-значений (с добавлением случайности для исследования).


P.S. Если вы думаете, что RL — это только про AlphaGo и Dota 2, этот проект покажет, что даже в простых задачах есть глубина! 🧠

Github

@cpluspluc

#rl #ml #ai #tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/cpluspluc/997
Create:
Last Update:

✔️ ttt-rl (Tic-Tac-Toe Reinforcement Learning)

🎯 Суть проекта
Это эксперимент по обучению с подкреплением (Reinforcement Learning, RL), где агент учится играть в крестики-нолики (Tic-Tac-Toe) без использования нейронных сетей. Основная цель — продемонстрировать, как классические методы RL справляются с простыми играми.

🔥 Чем интересен?
Минимализм и простота
Весь код написан на чистом C (~400 строк).
Нет зависимостей — только стандартная библиотека.
Идеален для изучения основ RL «с нуля».

Классический подход к RL
Используется метод Temporal Difference (TD) Learnin
Агент обучается через игру (self-play) и обновляет стратегию на основе наград.

Образовательная ценность
Понятная визуализация процесса обучения (таблицы Q-значений).
Пример того, как простая задача помогает понять фундамент RL.

Эффективность
После обучения агент играет почти оптимально, избегая поражений.
Код легко модифицировать для экспериментов (например, изменить размер доски).

📊 Как это работает?
Q-таблица хранит «ценность» каждого действия в конкретном состоянии.

Агент выбирает ход на основе текущих Q-значений (с добавлением случайности для исследования).


P.S. Если вы думаете, что RL — это только про AlphaGo и Dota 2, этот проект покажет, что даже в простых задачах есть глубина! 🧠

Github

@cpluspluc

#rl #ml #ai #tutorial

BY C++ Academy




Share with your friend now:
tg-me.com/cpluspluc/997

View MORE
Open in Telegram


C Academy Telegram | DID YOU KNOW?

Date: |

Telegram and Signal Havens for Right-Wing Extremists

Since the violent storming of Capitol Hill and subsequent ban of former U.S. President Donald Trump from Facebook and Twitter, the removal of Parler from Amazon’s servers, and the de-platforming of incendiary right-wing content, messaging services Telegram and Signal have seen a deluge of new users. In January alone, Telegram reported 90 million new accounts. Its founder, Pavel Durov, described this as “the largest digital migration in human history.” Signal reportedly doubled its user base to 40 million people and became the most downloaded app in 70 countries. The two services rely on encryption to protect the privacy of user communication, which has made them popular with protesters seeking to conceal their identities against repressive governments in places like Belarus, Hong Kong, and Iran. But the same encryption technology has also made them a favored communication tool for criminals and terrorist groups, including al Qaeda and the Islamic State.

How Does Bitcoin Mining Work?

Bitcoin mining is the process of adding new transactions to the Bitcoin blockchain. It’s a tough job. People who choose to mine Bitcoin use a process called proof of work, deploying computers in a race to solve mathematical puzzles that verify transactions.To entice miners to keep racing to solve the puzzles and support the overall system, the Bitcoin code rewards miners with new Bitcoins. “This is how new coins are created” and new transactions are added to the blockchain, says Okoro.

C Academy from nl


Telegram C++ Academy
FROM USA